1 DAY 1:2月20日

1.1 RStudio で Project の作成

1.1.1 確認

  1. R と R Studio のインストール
  2. RStudio: New Project 作成
  • R Studio の起動
  • New Project: eco232, eco232.Rproj
  1. Save して、終了
  2. プロジェクトを起動確認

1.2 基本コマンド - in Console

  • head(cars)
  • str(cars)
  • summary(cars)
  • df_cars <- cars
    • <-_%>% と ` back tick の確認
  • View(cars) または、右上の Environment から、df_cars をクリック
  • ?cars または Help 検索窓で cars, head など

おすすめ:Sys.setenv(LANG = "en")

1.3 Package の確認とインストール

R packages are extensions to the R statistical programming language containing code, data, and documentation in a standardised collection format that can be installed by users of R using Tool > Install Packages in the top menu bar of R Studio.

Rパッケージは、Rの拡張機能で、コード、データ、ドキュメントを標準化されたコレクション形式で含んでおり、標準的なものは、R Studio の Top Bar の Tool > Install Packages からインストールできます。

  • Minimum: tidyverse, rmarkdown, WDI

あとから使うので、ロードしておきます。最初に次のようなコードを実行します。右の三角を押します。

library(tidyverse)
library(WDI)

1.4 R Markdown 入門

1.4.1 R Notebook

R Markdownはデータサイエンスのためのオーサリングフレームワーク。

コード(プログラム)とその実行結果、を記録・表示し、高品質のレポートの作成を可能にします。

R Notebook は、独立してインタラクティブに実行できるチャンクを持つR Markdownドキュメントの一つの形式で、入力のすぐ下に出力が表示することができます。

  1. File > New File > R Notebook
  2. Save with a file name, say, test-notebook
  3. Preview by [Preview] button
  4. Run Code Chunk plot(cars) and then Preview again.

1.5 World Development Indicator (WDI)

WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"),
    extra=TRUE, cache=wdi_cache) %>% drop_na(gdp) %>%
  filter(year==max(year), income !="Aggregates") %>% 
  drop_na(region) %>% arrange(desc(gdp))
chosen_countries <- c("United States","China", "Japan", "Germany", "United Kingdom","India")
WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE) %>% drop_na(gdp) %>% 
  ggplot(aes(year, gdp, col = country)) + geom_line() +
  labs(title = "WDI NY.GDP.MKTP.CD: gdp")

WDI(country = c("CN","IN","JP","US"), 
    indicator = c(gdp_growth_rate = "NY.GDP.MKTP.KD.ZG"), extra=TRUE) %>%
  drop_na(gdp_growth_rate) %>% 
  ggplot(aes(year, gdp_growth_rate, col = country)) + geom_line() +
  labs(title = paste("WDI NY.GDP.MKTP.KD.ZG: gdp growth rate"))

1.5.1 指標 Indicators (WDI)

  • NY.GDP.MKTP.CD: GDP (current US$)
  • NY.GDP.MKTP.KD.ZG: GDP growth (annual %)

1.5.2 指標 WDI を探してみよう

The World Development Indicators is a compilation of relevant, high-quality, and internationally comparable statistics about global development and the fight against poverty. The database contains 1,400 time series indicators for 217 economies and more than 40 country groups, with data for many indicators going back more than 50 years.

WDIは、世界の開発状況と、貧困との戦いに関する、適切で上質、かつ、国際的に比較可能な時系列の統計データを編纂したものです。このデータベースは、217の経済と40以上の国グループについて1,400の時系列指標を含み、指標のデータの多くは50年以上前に遡ることができます。

1.5.3 指標 WDIの例

  • NY.GDP.MKTP.CD: GDP (current US$)
  • NY.GDP.DEFL.KD.ZG: Inflation, GDP deflator (annual %)
  • SL.UEM.TOTL.NE.ZS: Unemployment, total (% of total labor force) (national estimate)
  • CPTOTNSXN: CPI Price, nominal
  • SL.TLF.CACT.MA.NE.ZS: Labor force participation rate, male (% of male population ages 15+) (national estimate)
  • SL.TLF.CACT.FE.NE.ZS: Labor force participation rate, female (% of male population ages 15+) (national estimate)

1.5.4 練習 1. - 調べてみたい WDI

いくつか、リストしてみましょう。

1.6 WDI パッケージ

WDI パッケージで、データをダウンロードしたり、探したり、詳細情報を得たりできます。

1.6.1 指標 WDI 検索

1.6.1.1 検索例 1(WDI名)

WDIsearch(string = "gdp", field = "name", short = TRUE, cache = NULL)

1.6.1.2 検索例 2(WDI)

WDIsearch(string = "NY.GDP.MKTP.CD", field = "indicator", short = TRUE, cache = NULL)

1.6.1.3 練習 2. - 検索(short)

名前で検索(“” の間に、(なるべく簡単な)検索文字列を入れてください。)

WDIsearch(string = "", field = "name", short = TRUE, cache = NULL)

Indicator で検索(“” の間に、調べたい indicator を入れてください。)

WDIsearch(string = "", field = "indicator", short = TRUE, cache = NULL)

1.6.1.4 詳しい情報を得るには

short = FALSE とします。時間がかかるので、検索は、Indicator と、名前などの情報をもったファイルを手元に持っておくことにします。

wdi_cache <- WDIcache()

右上の窓枠(pane)から、wdi_cache を探して、中身を見てみましょう。series と、country の二つのデータ・フレームからなっているリストです。三角印や、右から二番目の巻物のようなアイコンをクリックすると中身が見えます。

1.6.1.5 検索例 3(WDI名)

WDIsearch(string = "CPI Price", field = "name", short = FALSE, cache = wdi_cache)
  • CPTOTNSXN: CPI Price, nominal
    • The consumer price index reflects the change in prices for the average consumer of a constant basket of consumer goods. Data is not seasonally adjusted.

1.6.1.6 検索例 4(WDI)

WDIsearch(string = "NY.GDP.MKTP.KD.ZG", field = "indicator", short = FALSE, cache = wdi_cache)

1.6.1.7 練習 2 - 検索(long w/ cache)

string と、field を、ふたつとも入れてください。

WDIsearch(string = "", field = "", short = FALSE, cache = wdi_cache)

1.6.2 指標 WDI データのダウンロード

Indicator が決まったら、ダウンロードします。

?WDI

1.6.2.1 ダウンロード例 1-1

df_gdp1 <- WDI(country = "all", indicator = "NY.GDP.MKTP.CD")
df_gdp1

1.6.2.2 ダウンロード例 1-2

df_gdp2 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"))
df_gdp2

1.6.2.3 ダウンロード例 1-3

df_gdp3 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp3

1.6.2.4 ダウンロード例 1-4

df_gdp4 <- WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp4

1.6.2.5 ダウンロード例 2-1

  • NY.GDP.DEFL.KD.ZG: Inflation, GDP deflator (annual %)
  • CPTOTNSXN: CPI Price, nominal
df_gdp21 <- WDI(country = "all", 
                indicator = c(gdp_deflator = "NY.GDP.DEFL.KD.ZG", 
                              cpi_price = "CPTOTNSXN"), 
                extra=TRUE, cache=wdi_cache)
df_gdp21
str(df_gdp21)
'data.frame':   23972 obs. of  14 variables:
 $ country     : chr  "Advanced Economies" "Advanced Economies" "Advanced Economies" "Advanced Economies" ...
 $ iso2c       : chr  "AME" "AME" "AME" "AME" ...
 $ iso3c       : chr  "" "" "" "" ...
 $ year        : int  1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 ...
 $ status      : chr  "" "" "" "" ...
 $ lastupdated : chr  "2020-07-27" "2020-07-27" "2020-07-27" "2020-07-27" ...
 $ gdp_deflator: num  NA NA NA NA NA NA NA NA NA NA ...
  ..- attr(*, "label")= chr "Inflation, GDP deflator (annual %)"
 $ cpi_price   : num  58.7 60.5 63 66 69.1 ...
  ..- attr(*, "label")= chr "CPI Price,not seas.adj,,,"
 $ region      : chr  NA NA NA NA ...
 $ capital     : chr  NA NA NA NA ...
 $ longitude   : chr  NA NA NA NA ...
 $ latitude    : chr  NA NA NA NA ...
 $ income      : chr  NA NA NA NA ...
 $ lending     : chr  NA NA NA NA ...
summary(df_gdp21)
   country             iso2c              iso3c                year     
 Length:23972       Length:23972       Length:23972       Min.   :1960  
 Class :character   Class :character   Class :character   1st Qu.:1982  
 Mode  :character   Mode  :character   Mode  :character   Median :1996  
                                                          Mean   :1995  
                                                          3rd Qu.:2009  
                                                          Max.   :2021  
                                                                        
    status          lastupdated         gdp_deflator         cpi_price     
 Length:23972       Length:23972       Min.   :  -98.704   Min.   :  0.00  
 Class :character   Class :character   1st Qu.:    2.317   1st Qu.: 55.95  
 Mode  :character   Mode  :character   Median :    5.273   Median : 83.28  
                                       Mean   :   25.308   Mean   : 84.18  
                                       3rd Qu.:   10.411   3rd Qu.:108.75  
                                       Max.   :26765.858   Max.   :551.25  
                                       NA's   :11616       NA's   :18410   
    region            capital           longitude           latitude        
 Length:23972       Length:23972       Length:23972       Length:23972      
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
                                                                            
                                                                            
                                                                            
                                                                            
    income            lending         
 Length:23972       Length:23972      
 Class :character   Class :character  
 Mode  :character   Mode  :character  
                                      
                                      
                                      
                                      

右上の窓枠の、Environment も見てみましょう。

1.7 可視化 Visualization

グラフ(Chart)を描いて視覚化しよう

1.7.1 グラフ 1

df_gdp4 %>% ggplot(aes(year, gdp, col=country)) + geom_line()

1.7.2 グラフ 2

df_gdp4 %>% drop_na(gdp) %>% 
  ggplot(aes(year, gdp, col=country)) + geom_line() +
  labs(title = paste("WDI - NY.GDP.MKTP.CD: ", "gdp"))

1.7.3 テンプレート Templates

1.7.3.1 一つの国についての、一つの指標(WDI)と、その略称から、折線グラフを作成

Line Plot with one indicator with abbreviation and one country

chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>%
  filter(country == chosen_country) %>% 
  ggplot(aes(year, short_name)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, ": ", short_name, " - ", chosen_country),
       y = short_name)

1.7.3.2 一つの国についての、一つの指標(WDI)から、折線グラフを作成

Line Plot with one indicator and one country

chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
chosen_country <- "United States"
WDI(country = "all", indicator = c(chosen_indicator = chosen_indicator), 
    extra=TRUE, cache=wdi_cache) %>%
  filter(country == chosen_country) %>% 
  ggplot(aes(year, chosen_indicator)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, " - ", chosen_country), 
       y = chosen_indicator)

1.7.3.3 いくつかの国についての、一つの指標(WDI)と、その略称から、折線グラフを作成

Line Plot with one indicator with abbreviation and several countries

chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_countries <- c("United States","United Kingdom", "Japan")
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>% drop_na(short_name) %>% 
  filter(country %in% chosen_countries) %>% 
  ggplot(aes(year, short_name, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, ": ", short_name), y = short_name)

1.7.3.4 一つの国についての、二つの指標(WDI)と、その略称から、折線グラフを作成

Line Plot with two indicators with abbreviation and one country

chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country == chosen_country) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, col = class)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
  scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))

chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country == chosen_country) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, col = class)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
  scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))

1.7.3.5 いくつかの国についての、二つの指標(WDI)と、その略称から、折線グラフを作成

Line Plot with two indicators with abbreviation and several countries

chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country %in% chosen_countries) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
  scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))

chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country %in% chosen_countries) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
  scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))

1.8 課題 Assignment

上のテンプレートをコピーして、下に貼り付け、指標 indicator と、略称 short_name と、いくつかの国名 chosen_countries を、入れ替えて、試してみてください。

2 DAY 2:2月22日

2.1 探索的データ解析 Exploratory Data Analysis (EDA)

2.1.1 探索的データ解析とは? (Posit Primers)

  1. EDAは、データが何を語っているかを理解するための反復的なサイクルです。

  2. まず、データに関する問いを作成します。

  3. データの可視化、変換、モデリングを行い、答えを探します。

学習したことを活用して、問いを修正したり、新しい問いを考えたりします。そして、このサイクルを繰り返していきます。

EDAはデータ分析において重要な役割を果たします。また、データの品質を保証するために、データの質を確認するために使用することもできます。

R4DS からのイメージ

2.1.2 データの取得・読み込み - Importing Data

スタートは、本来は、データの作成・探索ですが、すでに、分析したいデータはすでにあるとして話を進めます。まずは、data フォルダ(directory)を作成しておくと良い。右下の窓枠の Files タブから、New Folder で作成してもよい。

dir.create("./data")

データの取得・読み込みを、四つの方法に分けて説明します。

  1. パッケージの利用
  • 例:WDI など。何度も、ダウンロードしなくて良いよいに、書き出しておき、2 を使うとよい。write(df_name, "./data/name.csv")
  1. コンピュータ上にある CSV などのテキストファイルを読み込む
  • 例:df_name <- read_csv("./data/file_name.csv")
  1. インターネット上のデータのアドレス(URL)を使って、CSV などのテキストファイルを読み込む。
  • 例:df_name <- read_csv(url_of_a_csv)
  1. コンピュータ上にある、Excel ファイルなどのデジタルファイルを読み込む。まず、library(readxl)
  • 例:df_name <- read_excel("./data/file_name.xlsx")
  1. サイトからダウンロードして、Project のデータフォルダに移す。または、データのアドレス(URL)がわかっていれば、直接ダウンロード。
  • 例:`download.file(url_of_a_data, destfile = “./data/data_name”)
  1. クリップボードにコピーして読み込む。
  • 例:df_name <- read_delim(clipboard())

2.1.3 WDIcache() の扱い

二つの、ファイルが一つになった、リストであるため、違って命令を使います。

wdi_cache <- WDIcache()
write_rds(wdi_cache, "./wdi_cache.RData")
wdi_cache <- read_rds("./wdi_cache.RData")

2.1.4 国際機関のデータ International Institutions’ Data

url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop0 <- read_csv(url_un_pop)
New names:Rows: 7874 Columns: 7── Column specification ──────────────────────────────────────────────────────────
Delimiter: ","
chr (7): T02, Population, density and surface area, ...3, ...4, ...5, ...6, ...7
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_un_pop0
url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop <- read_csv(url_un_pop, skip=1)
New names:Rows: 7873 Columns: 7── Column specification ──────────────────────────────────────────────────────────
Delimiter: ","
chr (4): ...2, Series, Footnotes, Source
dbl (2): Region/Country/Area, Year
num (1): Value
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_un_pop
df_un_pop %>% distinct(`Region/Country/Area`, `...2`)
df_un_pop %>% filter(`Region/Country/Area` %in% c(2,19,142,150,9), Series == "Population mid-year estimates (millions)") %>%
  ggplot(aes(Year, Value, fill = `...2`)) + geom_area(col="black") +
  labs(title = "Population mid-year estimates (millions) of the World")

2.2 OECD data

2.2.1 Definition of GDP per hour worked

GDP per hour worked is a measure of labour productivity. It measures how efficiently labour input is combined with other factors of production and used in the production process. Labour input is defined as total hours worked of all persons engaged in production. Labour productivity only partially reflects the productivity of labour in terms of the personal capacities of workers or the intensity of their effort. The ratio between the output measure and the labour input depends to a large degree on the presence and/or use of other inputs (e.g. capital, intermediate inputs, technical, organisational and efficiency change, economies of scale). This indicator is measured in USD (constant prices 2010 and PPPs) and indices.

労働時間当たりGDPは、労働生産性の指標である。これは、労働投入量が他の生産要素と組み合わされ、生産プロセスでどれだけ効率的に利用されたかを測定するものである。労働投入量は、生産に従事するすべての人の総労働時間として定義される。労働生産性は、労働者の個人的能力や努力の強さといった労働の生産性を部分的にしか反映していない。アウトプット指標と労働投入量の比率は、他の投入物(資本、中間投入物、技術・組織・効率の変化、規模の経済など)の存在や利用に大きく左右される。この指標は、米ドル(2010年の恒常価格およびPPP)および指標で測定されています。

df_oecd_productivity <- read_csv("./data/DP_LIVE_21022023111712065.csv")
Rows: 3894 Columns: 8── Column specification ──────────────────────────────────────────────────────────
Delimiter: ","
chr (6): LOCATION, INDICATOR, SUBJECT, MEASURE, FREQUENCY, Flag Codes
dbl (2): TIME, Value
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_oecd_productivity
df_oecd_productivity$LOCATION %>% unique()
 [1] "AUS"       "AUT"       "BEL"       "CAN"       "CZE"       "DNK"      
 [7] "FIN"       "FRA"       "DEU"       "GRC"       "HUN"       "ISL"      
[13] "IRL"       "ITA"       "JPN"       "KOR"       "LUX"       "MEX"      
[19] "NLD"       "NZL"       "NOR"       "POL"       "PRT"       "SVK"      
[25] "ESP"       "SWE"       "CHE"       "TUR"       "GBR"       "USA"      
[31] "CHL"       "EST"       "ISR"       "RUS"       "SVN"       "OECD"     
[37] "EU28"      "G-7"       "LVA"       "LTU"       "EA19"      "ZAF"      
[43] "CRI"       "BGR"       "HRV"       "ROU"       "EU27_2020" "COL"      
df_oecd_productivity$INDICATOR %>% unique()
[1] "GDPHRWKD"
df_oecd_productivity$SUBJECT %>% unique()
[1] "TOT"
df_oecd_productivity$MEASURE %>% unique()
[1] "USD"     "IDX2015"
df_oecd_productivity$FREQUENCY %>% unique()
[1] "A"
df_oecd_productivity$TIME %>% unique()
df_oecd_productivity %>% 
  filter(MEASURE == "USD", TIME == 2021) %>%
  select(LOCATION, Value) %>%
  arrange(desc(Value))
df_oecd_productivity %>% 
  filter(LOCATION %in% c("JPN", "OECD", "G-7", "EU28")) %>%
  filter(MEASURE == "USD") %>%
  ggplot(aes(TIME, Value, col = LOCATION)) + geom_line() + 
  labs(title="GDP per hour worked", subtitle="Total, 2015=100, 2021 or latest available")

2.2.2 Education

Adult education level: https://data.oecd.org/eduatt/adult-education-level.htm

df_oecd_education_level <- read_csv("./data/DP_LIVE_21022023120132654.csv")
Rows: 7330 Columns: 8── Column specification ──────────────────────────────────────────────────────────
Delimiter: ","
chr (5): LOCATION, INDICATOR, SUBJECT, MEASURE, FREQUENCY
dbl (2): TIME, Value
lgl (1): Flag Codes
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_oecd_education_level

2.3 World Inequality Report 2022

library(readxl)
url_summary <- "https://wir2022.wid.world/www-site/uploads/2022/03/WIR2022TablesFigures-Summary.xlsx"
download.file(url = url_summary, destfile = "./data/WIR2022s.xlsx", mode = "wb") 
trying URL 'https://wir2022.wid.world/www-site/uploads/2022/03/WIR2022TablesFigures-Summary.xlsx'
Content type 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet' length 908659 bytes (887 KB)
==================================================
downloaded 887 KB
excel_sheets("./data/WIR2022s.xlsx")
 [1] "Index"     "F1"        "F2"        "F3"        "F4"        "F5."      
 [7] "F6"        "F7"        "F8"        "F9"        "F10"       "F11"      
[13] "F12"       "F13"       "F14"       "F15"       "T1"        "data-F1"  
[19] "data-F2"   "data-F3"   "data-F4"   "data-F5"   "data-F6"   "data-F7"  
[25] "data-F8"   "data-F9"   "data-F10"  "data-F11"  "data-F12"  "data-F13."
[31] "data-F14." "data-F15" 
df1_wir <- read_excel("./data/WIR2022s.xlsx", sheet = "data-F1")
New names:
df1_wir
df1_wir %>% select(cat = ...1, 2:4) %>%
  pivot_longer(2:4, names_to = "group", values_to = "value") %>%
  ggplot(aes(x = cat, y = value, fill = group)) +
  geom_col(position = "dodge") + 
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) + 
  geom_text(aes(x = cat, y = value, group = group, label = scales::label_percent(accuracy=1)(value)), vjust = -0.08,
            position = position_dodge(0.9)) + 
  labs(title = "Figure 1. Global income and wealth inequality, 2021",
       x = "", y = "Share of total income or wealth", fill = "")

df2_wir <- read_delim(clipboard())
Rows: 8 Columns: 5── Column specification ──────────────────────────────────────────────────────────
Delimiter: "\t"
chr (4): iso, Bottom 50%, Middle 40%, Top 10%
dbl (1): year
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df2_wir
df2_wir2 <- read_excel("./data/WIR2022s.xlsx", sheet = "data-F2")
df2_wir2
df2_wir2 %>% pivot_longer(3:5, names_to = "level", values_to = "value") %>%
  ggplot(aes(x = iso, y = value, fill = level)) +
  geom_col(position = "dodge") + 
  scale_x_discrete(labels = function(x) stringr::str_wrap(x, width = 8)) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(title = "Figure 2. The poorest half lags behind Bottom 50%, middle 40% \nand top 10% income shares across the world in 2021",
       x = "", y = "Share of national income (%)", fill = "")

2.3.0.2 References

2.3.1 EDA by R Studio: Step 4 - Data Trasnformation

4.1. Look at the data: suppose df is the data frame

  • It is a good option to change into a tibble: dt <- as_tibble(df)
  • head(df), str(df), summary(df), dt, glimpse(dt)

4.2. Look at each variable

  • categorical? numerical?
  • factor? - forcats

4.3. Variation of each data: suppose x1 is a column name.

  • df %>% ggplot() + geom_histogram(aes(x1), bins = 30)

  • df %>% drop_na(x1): see the rows with a value in x1. If the value is NA, the row is not shown.

    • df_wo_na <- df %>% drop_na(x1) if you want to use only the rows without NA in x1

4.4. Use dpylr and tidyr to change column names, tidy data, and/or summarize data

  • rename, select, filter, arrange, mutate, pivot_longer(), pivot_wider(), group_by and summarize

2.3.1.1 References

2.3.2 EDA by R Studio: Step 5 - Visualize Data

5.1. In combination with Stap 4 - data transformation, try various data visualization.

  • What type of variation occurs within my variables?
  • What type of covariation occurs between my variables?

5.2. Keep a record of what you can observe by the visualization

5.3. Edit the list of questions by adding or polishing

5.4. Select several informative chart and add options

5.5. Look at examples from the textbooks or teaching site to have better visualization

2.3.2.1 References

2.3.3 EDA by R Studio: Step 6 - Conclusions and Questions for Further Study

  1. EDA is an iterative cycle that helps you understand what your data says. When you do EDA, you:

  2. Generate questions about your data

  3. Search for answers by visualising, transforming, and/or modeling your data

Use what you learn to refine your questions and/or generate new questions

EDA is an important part of any data analysis. You can use EDA to make discoveries about the world; or you can use EDA to ensure the quality of your data, asking questions about whether the data meets your standards or not.

2.4 Transforming Data: dplyr, tidyr

2.5 Visualizing Data: ggplot2

  • geom_smooth()

2.6 Templates

2.7 Practicum

3 DAY 3:2月24日

3.1 Importing Data

3.1.0.1 日本語データ

学校種類別進学率の推移: https://empowerment.tsuda.ac.jp/detail/82584

url_school_jp <- "https://www.gender.go.jp/about_danjo/whitepaper/r02/zentai/html/honpen/csv/zuhyo01-04-01.csv"
guess_encoding(url_school_jp, n_max = 10000, threshold = 0.2)
df_school_jp <- read_csv(url_school_jp, locale = locale(encoding = "Shift_JIS"), skip=2)
df_school_jp 
df_edu0 <- df_school_jp 
colnames(df_edu0) <- c("year", "highschool_m", "highschool_f", "vocational_m", "vocational_f", "university_m", "university_f", "juniorcollege_f", "gradschool_m", "gradschool_f")
df_edu00 <- df_edu0 %>% mutate(year = 1950:2019, 
                   highschool = (highschool_m + highschool_f)/2,
                   vocational = (vocational_m + vocational_f)/2,
                   university = (university_m + university_f)/2, 
                   juniorcollege = juniorcollege_f,
                   gradschool = (gradschool_m + gradschool_f)/2) 
df_edu00 %>% filter(year >= 1954) %>% select(-(2:10)) %>% 
  pivot_longer(3:5, names_to = "schools", values_to = "percentage") %>%
  mutate(types = factor(schools, levels = c("vocational", "juniorcollege", "university"))) %>%
  pivot_longer(c(highschool, gradschool), names_to = "highgrad", values_to ="value") %>%
  mutate(high_grad = factor(highgrad, levels = c("highschool", "gradschool"))) %>%
  ggplot() +
  geom_area(aes(x = year, y = percentage, fill = types)) +
  geom_line(aes(x = year, y = value, linetype = high_grad)) + 
  scale_x_continuous(breaks = round(seq(1960, 2020, by =10),1)) + 
  scale_y_continuous(breaks = round(seq(0, 100, by =10),1)) + 
  labs(title = "Tertially Education After Highschool", 
       subtitle = "with Highschool Graduates and Graduate School", fill = "", linetype = "")

3.2 Exploratory Data Analysis; Workflow

3.3 Transforming Data

  • filter(), select(), arrange(), mutate(), group_by(), summarize()

3.4 Visualizing Data

There is no rule about which questions you should ask to guide your research. However, two types of questions will always be useful for making discoveries within your data. You can loosely word these questions as:

  • What type of variation occurs within my variables?
    • Variance - distribution
  • What type of covariation occurs between my variables?
    • Covariance - correlation

3.5 Combining Data

3.6 Practicum

3.7 Questions and Answers

4 参考

4.1 RNotebook の活用

下のリンクを開き、右上の Code ボタンから、Download Rmd を選択すると、ダウンロードできますから、ダインロードしたものを、プロジェクト・フォールダーに移動またはコピーしてください。ダウンロードできないときは、Ctrl を押しながら、Download Rmd をクリックすると、Save As で保存できると思います。ブラウザーによって仕様が異なりますから、適切な方法を選んでください。

Windows でも、Mac でも提供されている、Google Chrome の場合には、Code ボタンから、ダンロードされるはずです。

4.2 クラウド - Posit Cloud

RStudio Cloudは、誰でもオンラインでデータサイエンスを行い、共有し、教え、学ぶことができる、軽量でクラウドベースのソリューションです。

4.2.1 クラウドサービス How to Start Posit Cloud

  1. Go to https://posit.cloud/
  2. Sign Up: top right
  3. Email address or Google account
  4. New Project: Project Name

4.3 練習問題 Posit Primers

Posit Primers https://posit.cloud/learn/primers

4.3.1 最初の演習 The Basics – r4ds: Explore, I

5 R Markdown

5.1 最初の一歩 Let’s get started!

  1. 準備:パッケージのインストール
  2. R Notebook
  3. 日本語のテンプレート
  4. R Markdown いくつかの Output
  5. R Script 実行記録
  6. パッケージ - Packages

5.2 2. R Notebook

R Markdownはデータサイエンスのためのオーサリングフレームワーク。

コード(プログラム)とその実行結果、を記録・表示し、高品質のレポートの作成を可能にします。

R Notebook は、独立してインタラクティブに実行できるチャンクを持つR Markdownドキュメントの一つの形式で、入力のすぐ下に出力が表示することができます。

  1. File > New File > R Notebook
  2. Save with a file name, say, test-notebook
  3. Preview by [Preview] button
  4. Run Code Chunk plot(cars) and then Preview again.

5.3 3. 日本語のテンプレート

下のリンクを開き、右上の Code ボタンから、Download Rmd を選択すると、ダウンロードできますから、ダインロードしたものを、プロジェクト・フォールダーに移動またはコピーしてください。ダウンロードできないときは、Ctrl を押しながら、Download Rmd をクリックすると、Save As で保存できると思います。ブラウザーによって仕様が異なりますから、適切な方法を選んでください。

Windows でも、Mac でも提供されている、Google Chrome の場合には、Code ボタンから、ダンロードされるはずです。

---
title: "ECO232 Rを使った経済データの収集と分析の方法"
author: "鈴木寛（Hiroshi Suzuki）"
date: "`r Sys.Date()`"
output:
  html_notebook:
    toc: yes
    toc_float: yes
    highlight: tango
    theme: cerulean
    number_sections: yes
  ioslides_presentation:
    highlight: tango
    widescreen: yes
  html_document:
    toc: yes
    df_print: paged
---

```{r setup, include=FALSE, eval=FALSE}
knitr::opts_chunk$set(echo = FALSE)
```

# DAY 1：2月20日

## RStudio で Project の作成

### 確認

1.  R と R Studio のインストール
2.  RStudio: New Project 作成

-   R Studio の起動
-   New Project: eco232, eco232.Rproj

3.  Save して、終了
4.  プロジェクトを起動確認

## 基本コマンド - in Console

-   `head(cars)`
-   `str(cars)`
-   `summary(cars)`
-   `df_cars <- cars`
    -   `<-` と `_` と `%>%` と \` back tick の確認
-   `View(cars)` または、右上の Environment から、`df_cars` をクリック
-   `?cars` または Help 検索窓で `cars`, `head` など

おすすめ：`Sys.setenv(LANG = "en")`

## Package の確認とインストール

R packages are extensions to the R statistical programming language containing code, data, and documentation in a standardised collection format that can be installed by users of R using Tool \> Install Packages in the top menu bar of R Studio.

Rパッケージは、Rの拡張機能で、コード、データ、ドキュメントを標準化されたコレクション形式で含んでおり、標準的なものは、R Studio の Top Bar の Tool \> Install Packages からインストールできます。

-   Minimum: `tidyverse`, `rmarkdown`, `WDI`

あとから使うので、ロードしておきます。最初に次のようなコードを実行します。右の三角を押します。

```{r}
library(tidyverse)
library(WDI)
```

## R Markdown 入門

### R Notebook

R Markdownはデータサイエンスのためのオーサリングフレームワーク。

コード（プログラム）とその実行結果、を記録・表示し、高品質のレポートの作成を可能にします。

R Notebook は、独立してインタラクティブに実行できるチャンクを持つR Markdownドキュメントの一つの形式で、入力のすぐ下に出力が表示することができます。

1.  File \> New File \> R Notebook
2.  Save with a file name, say, test-notebook
3.  Preview by [Preview] button
4.  Run Code Chunk plot(cars) and then Preview again.

## World Development Indicator (WDI)

```{r cache=TRUE}
WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"),
    extra=TRUE) %>% drop_na(gdp) %>%
  filter(year==max(year), income !="Aggregates") %>% 
  drop_na(region) %>% arrange(desc(gdp))
```

```{r cache=TRUE}
chosen_countries <- c("United States","China", "Japan", "Germany", "United Kingdom","India")
WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE) %>% drop_na(gdp) %>% 
  ggplot(aes(year, gdp, col = country)) + geom_line() +
  labs(title = "WDI NY.GDP.MKTP.CD: gdp")
```

```{r cache=TRUE}
WDI(country = c("CN","IN","JP","US"), 
    indicator = c(gdp_growth_rate = "NY.GDP.MKTP.KD.ZG"), extra=TRUE) %>%
  drop_na(gdp_growth_rate) %>% 
  ggplot(aes(year, gdp_growth_rate, col = country)) + geom_line() +
  labs(title = paste("WDI NY.GDP.MKTP.KD.ZG: gdp growth rate"))
```

### 指標 Indicators (WDI)

-   NY.GDP.MKTP.CD: GDP (current US\$)
-   NY.GDP.MKTP.KD.ZG: GDP growth (annual %)

### 指標 WDI を探してみよう

> The World Development Indicators is a compilation of relevant, high-quality, and internationally comparable statistics about global development and the fight against poverty. The database contains 1,400 time series indicators for 217 economies and more than 40 country groups, with data for many indicators going back more than 50 years.

> WDIは、世界の開発状況と、貧困との戦いに関する、適切で上質、かつ、国際的に比較可能な時系列の統計データを編纂したものです。このデータベースは、217の経済と40以上の国グループについて1,400の時系列指標を含み、指標のデータの多くは50年以上前に遡ることができます。

-   世界銀行（World Bank）: <https://www.worldbank.org>
-   World Bank Open Data: <https://data.worldbank.org>
    -   Country / [Indicator](https://data.worldbank.org/indicator) \> Featured & All \> Details
-   [World Development Indicators (WDI)](https://datatopics.worldbank.org/world-development-indicators/) :
    -   Themes: Poverty and Inequality, People, Environment, Economy, States and Markets, Global Links
    -   Open Data & DataBank: Explore data, Query database

### 指標 WDIの例

* NY.GDP.MKTP.CD: GDP (current US$)
* NY.GDP.DEFL.KD.ZG: Inflation, GDP deflator (annual %)
* SL.UEM.TOTL.NE.ZS: Unemployment, total (% of total labor force) (national estimate)
* CPTOTNSXN: CPI Price, nominal
* SL.TLF.CACT.MA.NE.ZS: Labor force participation rate, male (% of male population ages 15+) (national estimate)
* SL.TLF.CACT.FE.NE.ZS: Labor force participation rate, female (% of male population ages 15+) (national estimate)

### 練習 1. - 調べてみたい WDI

いくつか、リストしてみましょう。

## WDI パッケージ

`WDI` パッケージで、データをダウンロードしたり、探したり、詳細情報を得たりできます。

### 指標 WDI 検索

#### 検索例 1（WDI名）

```{r cache=TRUE}
WDIsearch(string = "gdp", field = "name", short = TRUE, cache = NULL)
```

  
#### 検索例 2（WDI）

```{r cache=TRUE}
WDIsearch(string = "NY.GDP.MKTP.CD", field = "indicator", short = TRUE, cache = NULL)
```

  
#### 練習 2. - 検索（short）

名前で検索（"" の間に、（なるべく簡単な）検索文字列を入れてください。）

```{r eval=FALSE, cache=TRUE}
WDIsearch(string = "", field = "name", short = TRUE, cache = NULL)
```

Indicator で検索（"" の間に、調べたい indicator を入れてください。）

```{r eval=FALSE, cache=TRUE}
WDIsearch(string = "", field = "indicator", short = TRUE, cache = NULL)
```

  
#### 詳しい情報を得るには

`short = FALSE` とします。時間がかかるので、検索は、Indicator と、名前などの情報をもったファイルを手元に持っておくことにします。

```{r cache=TRUE}
wdi_cache <- WDIcache()
```

右上の窓枠（pane）から、`wdi_cache` を探して、中身を見てみましょう。series と、country の二つのデータ・フレームからなっているリストです。三角印や、右から二番目の巻物のようなアイコンをクリックすると中身が見えます。

  
#### 検索例 3（WDI名）

```{r}
WDIsearch(string = "CPI Price", field = "name", short = FALSE, cache = wdi_cache)
```

- CPTOTNSXN: CPI Price, nominal
  - The consumer price index reflects the change in prices for the average consumer of a constant basket of consumer goods. Data is not seasonally adjusted.

#### 検索例 4（WDI）

```{r}
WDIsearch(string = "NY.GDP.MKTP.KD.ZG", field = "indicator", short = FALSE, cache = wdi_cache)
```

  
#### 練習 2 - 検索（long w/ cache）

`string` と、`field` を、ふたつとも入れてください。

```{r eval=FALSE}
WDIsearch(string = "", field = "", short = FALSE, cache = wdi_cache)
```



### 指標 WDI データのダウンロード

Indicator が決まったら、ダウンロードします。

```{r eval=FALSE}
?WDI
```

  
#### ダウンロード例 1-1

```{r cache=TRUE}
df_gdp1 <- WDI(country = "all", indicator = "NY.GDP.MKTP.CD")
df_gdp1
```

  
#### ダウンロード例 1-2

```{r cache=TRUE}
df_gdp2 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"))
df_gdp2
```

  
#### ダウンロード例 1-3

```{r cache=TRUE}
df_gdp3 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp3
```

  
#### ダウンロード例 1-4

```{r cache=TRUE}
df_gdp4 <- WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp4
```

#### ダウンロード例 2-1

* NY.GDP.DEFL.KD.ZG: Inflation, GDP deflator (annual %)
* CPTOTNSXN: CPI Price, nominal

```{r cache=TRUE}
df_gdp21 <- WDI(country = "all", 
                indicator = c(gdp_deflator = "NY.GDP.DEFL.KD.ZG", 
                              cpi_price = "CPTOTNSXN"), 
                extra=TRUE, cache=wdi_cache)
df_gdp21
```

```{r}
str(df_gdp21)
```

```{r}
summary(df_gdp21)
```

右上の窓枠の、Environment も見てみましょう。

## 可視化 Visualization

グラフ（Chart）を描いて視覚化しよう

### グラフ 1

```{r}
df_gdp4 %>% ggplot(aes(year, gdp, col=country)) + geom_line()
```

### グラフ 2

```{r}
df_gdp4 %>% drop_na(gdp) %>% 
  ggplot(aes(year, gdp, col=country)) + geom_line() +
  labs(title = paste("WDI - NY.GDP.MKTP.CD: ", "gdp"))
```

### テンプレート Templates

#### 一つの国についての、一つの指標（WDI）と、その略称から、折線グラフを作成

Line Plot with one indicator with abbreviation and one country

```{r cache=TRUE}
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>%
  filter(country == chosen_country) %>% 
  ggplot(aes(year, short_name)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, ": ", short_name, " - ", chosen_country),
       y = short_name)
```

#### 一つの国についての、一つの指標（WDI）から、折線グラフを作成

Line Plot with one indicator and one country

```{r cache=TRUE}
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
chosen_country <- "United States"
WDI(country = "all", indicator = c(chosen_indicator = chosen_indicator), 
    extra=TRUE, cache=wdi_cache) %>%
  filter(country == chosen_country) %>% 
  ggplot(aes(year, chosen_indicator)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, " - ", chosen_country), 
       y = chosen_indicator)
```

#### いくつかの国についての、一つの指標（WDI）と、その略称から、折線グラフを作成

Line Plot with one indicator with abbreviation and several countries

```{r cache=TRUE}
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_countries <- c("United States","United Kingdom", "Japan")
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>% drop_na(short_name) %>% 
  filter(country %in% chosen_countries) %>% 
  ggplot(aes(year, short_name, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator, ": ", short_name), y = short_name)
```


#### 一つの国についての、二つの指標（WDI）と、その略称から、折線グラフを作成

Line Plot with two indicators with abbreviation and one country

```{r cache=TRUE}
chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country == chosen_country) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, col = class)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
  scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))
```

```{r cache=TRUE}
chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country == chosen_country) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, col = class)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
  scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))
```

#### いくつかの国についての、二つの指標（WDI）と、その略称から、折線グラフを作成

Line Plot with two indicators with abbreviation and several countries

```{r cache=TRUE}
chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country %in% chosen_countries) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
  scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))
```


```{r cache=TRUE}
chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>% 
  filter(country %in% chosen_countries) %>% 
  pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
  ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
  labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
  scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))
```

## 課題　Assignment

上のテンプレートをコピーして、下に貼り付け、指標 `indicator` と、略称 `short_name` と、いくつかの国名 `chosen_countries` を、入れ替えて、試してみてください。


# DAY 2：2月22日

## 探索的データ解析　Exploratory Data Analysis (EDA)

### 探索的データ解析とは？ ([Posit Primers](https://posit.cloud/learn/primers/3.1))

1. EDAは、データが何を語っているかを理解するための反復的なサイクルです。

2. まず、データに関する問いを作成します。

3. データの可視化、変換、モデリングを行い、答えを探します。

学習したことを活用して、問いを修正したり、新しい問いを考えたりします。そして、このサイクルを繰り返していきます。

EDAはデータ分析において重要な役割を果たします。また、データの品質を保証するために、データの質を確認するために使用することもできます。

![R4DS からのイメージ](data/data-science.png)

### データの取得・読み込み - Importing Data

スタートは、本来は、データの作成・探索ですが、すでに、分析したいデータはすでにあるとして話を進めます。まずは、`data` フォルダ（directory）を作成しておくと良い。右下の窓枠の Files タブから、New Folder で作成してもよい。

```{r eval=FALSE}
dir.create("./data")
```


データの取得・読み込みを、四つの方法に分けて説明します。

1. パッケージの利用
  - 例：WDI など。何度も、ダウンロードしなくて良いよいに、書き出しておき、2 を使うとよい。`write(df_name, "./data/name.csv")`
2. コンピュータ上にある CSV などのテキストファイルを読み込む
  - 例：`df_name <- read_csv("./data/file_name.csv")`
3. インターネット上のデータのアドレス（URL）を使って、CSV などのテキストファイルを読み込む。
  - 例：`df_name <- read_csv(url_of_a_csv)`
4. コンピュータ上にある、Excel ファイルなどのデジタルファイルを読み込む。まず、`library(readxl)`。
  - 例：`df_name <- read_excel("./data/file_name.xlsx")`
5. サイトからダウンロードして、Project のデータフォルダに移す。または、データのアドレス（URL）がわかっていれば、直接ダウンロード。
  - 例：`download.file(url_of_a_data, destfile = "./data/data_name")
6. クリップボードにコピーして読み込む。
  - 例：`df_name <- read_delim(clipboard())`

### `WDIcache()` の扱い

二つの、ファイルが一つになった、リストであるため、違って命令を使います。

```{r}
wdi_cache <- WDIcache()
write_rds(wdi_cache, "./wdi_cache.RData")
```

```{r}
wdi_cache <- read_rds("./wdi_cache.RData")
```

### 国際機関のデータ International Institutions' Data

- World Bank: https://data.worldbank.org
- UN Data: https://data.un.org
- OECD: https://data.oecd.org/

```{r}
url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop0 <- read_csv(url_un_pop)
df_un_pop0
```

```{r}
url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop <- read_csv(url_un_pop, skip=1)
df_un_pop
```

```{r}
df_un_pop %>% distinct(`Region/Country/Area`, `...2`)
```


```{r}
df_un_pop %>% filter(`Region/Country/Area` %in% c(2,19,142,150,9), Series == "Population mid-year estimates (millions)") %>%
  ggplot(aes(Year, Value, fill = `...2`)) + geom_area(col="black") +
  labs(title = "Population mid-year estimates (millions) of the World")
```

## OECD data

- https://data.oecd.org/

- [日本の時間当たり生産性はOECD38カ国中27位（日本生産性本部「労働生産性の国際比較」）](https://www.jcci.or.jp/news/trend-box/2022/1219154713.html)
  - [労働生産性の国際比較2022](https://www.jpc-net.jp/research/detail/006174.html)
- [Productivity statistics](https://www.oecd.org/sdd/productivity-stats/)
  - [Read More: Improving Productivity Measurement Practices](https://www.oecd.org/sdd/productivity-stats/improving-productivity-measurement-practices.htm)
    - [Level of GDP per capita and productivity](https://stats.oecd.org/Index.aspx?DataSetCode=PDB_LV)
    - [GDP per hour worked](https://data.oecd.org/lprdty/gdp-per-hour-worked.htm#indicator-chart)
    
    
### Definition of GDP per hour worked

GDP per hour worked is a measure of labour productivity. It measures how efficiently labour input is combined with other factors of production and used in the production process. Labour input is defined as total hours worked of all persons engaged in production. Labour productivity only partially reflects the productivity of labour in terms of the personal capacities of workers or the intensity of their effort. The ratio between the output measure and the labour input depends to a large degree on the presence and/or use of other inputs (e.g. capital, intermediate inputs, technical, organisational and efficiency change, economies of scale). This indicator is measured in USD (constant prices 2010 and PPPs) and indices.

労働時間当たりGDPは、労働生産性の指標である。これは、労働投入量が他の生産要素と組み合わされ、生産プロセスでどれだけ効率的に利用されたかを測定するものである。労働投入量は、生産に従事するすべての人の総労働時間として定義される。労働生産性は、労働者の個人的能力や努力の強さといった労働の生産性を部分的にしか反映していない。アウトプット指標と労働投入量の比率は、他の投入物（資本、中間投入物、技術・組織・効率の変化、規模の経済など）の存在や利用に大きく左右される。この指標は、米ドル（2010年の恒常価格およびPPP）および指標で測定されています。

```{r}
df_oecd_productivity <- read_csv("./data/DP_LIVE_21022023111712065.csv")
df_oecd_productivity
```

```{r}
df_oecd_productivity$LOCATION %>% unique()
```
```{r}
df_oecd_productivity$INDICATOR %>% unique()
```

```{r}
df_oecd_productivity$SUBJECT %>% unique()
```

```{r}
df_oecd_productivity$MEASURE %>% unique()
```

```{r}
df_oecd_productivity$FREQUENCY %>% unique()
```

```{r}
df_oecd_productivity$TIME %>% unique()
```

```{r}
df_oecd_productivity %>% 
  filter(MEASURE == "USD", TIME == 2021) %>%
  select(LOCATION, Value) %>%
  arrange(desc(Value))
```
```{r}
df_oecd_productivity %>% 
  filter(LOCATION %in% c("JPN", "OECD", "G-7", "EU28")) %>%
  filter(MEASURE == "USD") %>%
  ggplot(aes(TIME, Value, col = LOCATION)) + geom_line() + 
  labs(title="GDP per hour worked", subtitle="Total, 2015=100, 2021 or latest available")
```


### Education

Adult education level: https://data.oecd.org/eduatt/adult-education-level.htm

```{r}
df_oecd_education_level <- read_csv("./data/DP_LIVE_21022023120132654.csv")
df_oecd_education_level
```

## World Inequality Report 2022



```{r}
library(readxl)
```


```{r}
url_summary <- "https://wir2022.wid.world/www-site/uploads/2022/03/WIR2022TablesFigures-Summary.xlsx"
download.file(url = url_summary, destfile = "./data/WIR2022s.xlsx", mode = "wb") 
```

```{r}
excel_sheets("./data/WIR2022s.xlsx")
```
```{r}
df1_wir <- read_excel("./data/WIR2022s.xlsx", sheet = "data-F1")
df1_wir
```
```{r}
df1_wir %>% select(cat = ...1, 2:4) %>%
  pivot_longer(2:4, names_to = "group", values_to = "value") %>%
  ggplot(aes(x = cat, y = value, fill = group)) +
  geom_col(position = "dodge") + 
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) + 
  geom_text(aes(x = cat, y = value, group = group, label = scales::label_percent(accuracy=1)(value)), vjust = -0.08,
            position = position_dodge(0.9)) + 
  labs(title = "Figure 1. Global income and wealth inequality, 2021",
       x = "", y = "Share of total income or wealth", fill = "")
```

```{r}
df2_wir <- read_delim(clipboard())
df2_wir 
```

```{r}
df2_wir2 <- read_excel("./data/WIR2022s.xlsx", sheet = "data-F2")
df2_wir2
```

```{r}
df2_wir2 %>% pivot_longer(3:5, names_to = "level", values_to = "value") %>%
  ggplot(aes(x = iso, y = value, fill = level)) +
  geom_col(position = "dodge") + 
  scale_x_discrete(labels = function(x) stringr::str_wrap(x, width = 8)) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(title = "Figure 2. The poorest half lags behind Bottom 50%, middle 40% \nand top 10% income shares across the world in 2021",
       x = "", y = "Share of national income (%)", fill = "")
```

#### WIR2022: https://ds-sl.github.io/data-analysis/wir2022.nb.html

#### References

* Cheat Sheet - `readr`
* [readr](https://readr.tidyverse.org)
* [readxl](https://readxl.tidyverse.org)




### EDA by R Studio: Step 4 - Data Trasnformation

4.1. Look at the data: suppose `df` is the data frame

  * It is a good option to change into a tibble: `dt <- as_tibble(df)`
  * `head(df)`, `str(df)`, `summary(df)`, `dt`, `glimpse(dt)`

4.2. Look at each variable

  * categorical? numerical? 
  * factor? - [forcats](https://forcats.tidyverse.org)
  
4.3. Variation of each data: suppose `x1` is a column name.

  * `df %>% ggplot() + geom_histogram(aes(x1), bins = 30)`
  * `df %>% drop_na(x1)`: see the rows with a value in `x1`. If the value is NA, the row is not shown.
  
    - `df_wo_na <- df %>% drop_na(x1)` if you want to use only the rows without NA in `x1`
    


4.4. Use `dpylr` and `tidyr` to change column names, tidy data, and/or summarize data

  * `rename`, `select`, `filter`, `arrange`, `mutate`, `pivot_longer()`, `pivot_wider()`, `group_by` and `summarize`


#### References

* Cheat Sheet - `dplyr` and `tidyr`
* [dplyr](https://dplyr.tidyverse.org)
* [tidyr](https://tidyr.tidyverse.org)



### EDA by R Studio: Step 5 - Visualize Data

5.1. In combination with Stap 4 - data transformation, try various data visualization.

  * What type of variation occurs within my variables?
  * What type of covariation occurs between my variables?


5.2. Keep a record of what you can observe by the visualization

5.3. Edit the list of questions by adding or polishing

5.4. Select several informative chart and add options

5.5. Look at examples from the textbooks or teaching site to have better visualization


#### References

* Cheat Sheet - `ggplot2` 
* [ggplot2](https://ggplot2.tidyverse.org)
* [ggplot2 book](https://ggplot2-book.org)

### EDA by R Studio: Step 6 - Conclusions and Questions for Further Study

1. EDA is an iterative cycle that helps you understand what your data says. When you do EDA, you:

2. Generate questions about your data

3. Search for answers by visualising, transforming, and/or modeling your data

Use what you learn to refine your questions and/or generate new questions

EDA is an important part of any data analysis. You can use EDA to make discoveries about the world; or you can use EDA to ensure the quality of your data, asking questions about whether the data meets your standards or not.


## Transforming Data: `dplyr`, `tidyr`

## Visualizing Data: `ggplot2`

-   `geom_smooth()`

## Templates

## Practicum

# DAY 3：2月24日

## Importing Data


#### 日本語データ

学校種類別進学率の推移: https://empowerment.tsuda.ac.jp/detail/82584


```{r}
url_school_jp <- "https://www.gender.go.jp/about_danjo/whitepaper/r02/zentai/html/honpen/csv/zuhyo01-04-01.csv"
guess_encoding(url_school_jp, n_max = 10000, threshold = 0.2)
```


```{r}
df_school_jp <- read_csv(url_school_jp, locale = locale(encoding = "Shift_JIS"), skip=2)
df_school_jp 
```

```{r warning=FALSE}
df_edu0 <- df_school_jp 
colnames(df_edu0) <- c("year", "highschool_m", "highschool_f", "vocational_m", "vocational_f", "university_m", "university_f", "juniorcollege_f", "gradschool_m", "gradschool_f")
df_edu00 <- df_edu0 %>% mutate(year = 1950:2019, 
                   highschool = (highschool_m + highschool_f)/2,
                   vocational = (vocational_m + vocational_f)/2,
                   university = (university_m + university_f)/2, 
                   juniorcollege = juniorcollege_f,
                   gradschool = (gradschool_m + gradschool_f)/2) 
df_edu00 %>% filter(year >= 1954) %>% select(-(2:10)) %>% 
  pivot_longer(3:5, names_to = "schools", values_to = "percentage") %>%
  mutate(types = factor(schools, levels = c("vocational", "juniorcollege", "university"))) %>%
  pivot_longer(c(highschool, gradschool), names_to = "highgrad", values_to ="value") %>%
  mutate(high_grad = factor(highgrad, levels = c("highschool", "gradschool"))) %>%
  ggplot() +
  geom_area(aes(x = year, y = percentage, fill = types)) +
  geom_line(aes(x = year, y = value, linetype = high_grad)) + 
  scale_x_continuous(breaks = round(seq(1960, 2020, by =10),1)) + 
  scale_y_continuous(breaks = round(seq(0, 100, by =10),1)) + 
  labs(title = "Tertially Education After Highschool", 
       subtitle = "with Highschool Graduates and Graduate School", fill = "", linetype = "")
```


## Exploratory Data Analysis; Workflow

## Transforming Data

-   `filter()`, `select()`, `arrange()`, `mutate()`, `group_by()`, `summarize()`

## Visualizing Data

There is no rule about which questions you should ask to guide your research. However, two types of questions will always be useful for making discoveries within your data. You can loosely word these questions as:

-   What type of variation occurs within my variables?
    -   Variance - distribution
-   What type of covariation occurs between my variables?
    -   Covariance - correlation

## Combining Data

## Practicum

## Questions and Answers

# 参考

## RNotebook の活用

下のリンクを開き、右上の Code ボタンから、Download Rmd を選択すると、ダウンロードできますから、ダインロードしたものを、プロジェクト・フォールダーに移動またはコピーしてください。ダウンロードできないときは、Ctrl を押しながら、Download Rmd をクリックすると、Save As で保存できると思います。ブラウザーによって仕様が異なりますから、適切な方法を選んでください。

-   <https://ds-sl.github.io/intro2r/RNotebook-J.nb.html>
-   <https://ds-sl.github.io/intro2r/Rmarkdown-J.nb.html>

Windows でも、Mac でも提供されている、Google Chrome の場合には、Code ボタンから、ダンロードされるはずです。

## クラウド - Posit Cloud

RStudio Cloudは、誰でもオンラインでデータサイエンスを行い、共有し、教え、学ぶことができる、軽量でクラウドベースのソリューションです。

### クラウドサービス　How to Start Posit Cloud

1.  Go to <https://posit.cloud/>
2.  Sign Up: top right
3.  Email address or Google account
4.  New Project: Project Name

## 練習問題 Posit Primers

Posit Primers <https://posit.cloud/learn/primers>

### 最初の演習　The Basics -- r4ds: Explore, I

-   [Visualization Basics](https://rstudio.cloud/learn/primers/1.1)
-   [Programming Basics](https://rstudio.cloud/learn/primers/1.2)

## 9. 参考文献 References

-   R For Data Science, by H. Wickham: <https://r4ds.had.co.nz>

    -   Introduction: <https://r4ds.had.co.nz/explore-intro.html#explore-intro>

-   Bookdown: <https://bookdown.org>, [Archive](https://bookdown.org/home/archive/)

-   [Get Started: R Studio で R をはじめよう、R Markdown](https://ds-sl.github.io/intro2r/getstarted.html)

-   [Introducton to R](https://ds-sl.github.io/intro2r/intro2r.nb.html#3_Data_Analysis_Using_RStudio)

-   [Data Analysis for Researchers 2022](https://icu-hsuzuki.github.io/da4r2022/)

# R Markdown

## 最初の一歩 Let's get started!

1.  準備：パッケージのインストール
2.  R Notebook
3.  日本語のテンプレート
4.  R Markdown いくつかの Output
5.  R Script 実行記録
6.  パッケージ - Packages

## 2. R Notebook

R Markdownはデータサイエンスのためのオーサリングフレームワーク。

コード（プログラム）とその実行結果、を記録・表示し、高品質のレポートの作成を可能にします。

R Notebook は、独立してインタラクティブに実行できるチャンクを持つR Markdownドキュメントの一つの形式で、入力のすぐ下に出力が表示することができます。

1.  File \> New File \> R Notebook
2.  Save with a file name, say, test-notebook
3.  Preview by [Preview] button
4.  Run Code Chunk plot(cars) and then Preview again.

## 3. 日本語のテンプレート

下のリンクを開き、右上の Code ボタンから、Download Rmd を選択すると、ダウンロードできますから、ダインロードしたものを、プロジェクト・フォールダーに移動またはコピーしてください。ダウンロードできないときは、Ctrl を押しながら、Download Rmd をクリックすると、Save As で保存できると思います。ブラウザーによって仕様が異なりますから、適切な方法を選んでください。

-   <https://ds-sl.github.io/intro2r/RNotebook-J.nb.html>
-   <https://ds-sl.github.io/intro2r/Rmarkdown-J.nb.html>

Windows でも、Mac でも提供されている、Google Chrome の場合には、Code ボタンから、ダンロードされるはずです。

